<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>string_stats 聚合 | ElasticSearch 7.7 权威指南中文版</title>
	<meta name="keywords" content="ElasticSearch 权威指南中文版, elasticsearch 7, es7, 实时数据分析，实时数据检索" />
    <meta name="description" content="ElasticSearch 权威指南中文版, elasticsearch 7, es7, 实时数据分析，实时数据检索" />
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
	<script>
	var _link = 'search-aggregations-metrics-string-stats-aggregation.html';
    </script>
</head>
<body>
<div class="main-container">
    <section id="content">
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-metrics-string-stats-aggregation.html" rel="nofollow" target="_blank">https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-metrics-string-stats-aggregation.html</a>, 原文档版权归 www.elastic.co 所有<br/>本地英文版地址: <a href="../en/search-aggregations-metrics-string-stats-aggregation.html" rel="nofollow" target="_blank">../en/search-aggregations-metrics-string-stats-aggregation.html</a></div>
                        <!-- start body -->
                  <div class="page_header">
<strong>重要</strong>: 此版本不会发布额外的bug修复或文档更新。最新信息请参考 <a href="https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html" rel="nofollow">当前版本文档</a>。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch 权威指南 [7.7]</a></span>
»
<span class="breadcrumb-link"><a href="search-aggregations.html">聚合</a></span>
»
<span class="breadcrumb-link"><a href="search-aggregations-metrics.html">度量聚合</a></span>
»
<span class="breadcrumb-node">string_stats 聚合</span>
</div>
<div class="navheader">
<span class="prev">
<a href="search-aggregations-metrics-scripted-metric-aggregation.html">« scripted_metric 聚合</a>
</span>
<span class="next">
<a href="search-aggregations-metrics-sum-aggregation.html">sum 聚合 »</a>
</span>
</div>
<div class="section xpack">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="search-aggregations-metrics-string-stats-aggregation"></a>字符串统计(string_stats)聚合<a class="xpack_tag" href="https://www.elastic.co/subscriptions"></a>
</h2>
</div></div></div>
<p>
一种<code class="literal">multi-value</code>(多值) 度量聚合，计算从聚合文档中提取的字符串值的统计数据。

这些值可以从文档中指定的 <code class="literal">keyword</code> 字段中检索，也可以由提供的脚本生成。
</p>
<p>字符串统计信息聚合返回以下结果：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
<code class="literal">count</code> - 计算的非空字段的数量。
</li>
<li class="listitem">
<code class="literal">min_length</code> - 最短的词项的长度。
</li>
<li class="listitem">
<code class="literal">max_length</code> - 最长的词项的长度。
</li>
<li class="listitem">
<code class="literal">avg_length</code> - 所有词项的平均长度。
</li>
<li class="listitem">
<code class="literal">entropy</code> - 对聚合收集的所有术语计算的<a href="https://en.wikipedia.org/wiki/Entropy_(information_theory)" class="ulink" target="_top">香农熵(Shannon Entropy)</a>。

香农熵量化了字段中包含的信息量。

这是一个非常有用的度量，用于测量数据集的各种属性，如多样性、相似性、随机性等。
</li>
</ul>
</div>
<p>假设数据由 twitter 消息组成：</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /twitter/_search?size=0
{
    "aggs" : {
        "message_stats" : { "string_stats" : { "field" : "message.keyword" } }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/385.console"></div>
<p>
上面的聚合计算所有文档中 <code class="literal">message</code> 字段的字符串统计信息。

聚合类型是 <code class="literal">string_stats</code>，参数 <code class="literal">field</code> 定义了将计算统计数据的文档的字段。

上面的查询将返回以下内容：
</p>
<div class="pre_wrapper lang-console-result">
<pre class="programlisting prettyprint lang-console-result">{
    ...

    "aggregations": {
        "message_stats" : {
            "count" : 5,
            "min_length" : 24,
            "max_length" : 30,
            "avg_length" : 28.8,
            "entropy" : 3.94617750050791
        }
    }
}</pre>
</div>
<p>
聚合的名称(上面的<code class="literal">message_stats</code>)也用作 key，通过它可以从返回的响应中检索聚合结果。
</p>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_character_distribution"></a>字符分布
</h3>
</div></div></div>
<p>
香农熵(Shannon Entropy)的计算基于每个字符出现在聚合收集的所有词项中的概率。

要查看所有字符的概率分布，可以添加参数 <code class="literal">show_distribution</code> (默认值：<code class="literal">false</code>)。
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /twitter/_search?size=0
{
    "aggs" : {
        "message_stats" : {
            "string_stats" : {
                "field" : "message.keyword",
                "show_distribution": true  <a id="CO206-1"></a><i class="conum" data-value="1"></i>
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/386.console"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO206-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>
将参数 <code class="literal">show_distribution</code> 设置为 <code class="literal">true</code>，以便在结果中返回所有字符的概率分布。
</p>
</td>
</tr>
</table>
</div>
<div class="pre_wrapper lang-console-result">
<pre class="programlisting prettyprint lang-console-result">{
    ...

    "aggregations": {
        "message_stats" : {
            "count" : 5,
            "min_length" : 24,
            "max_length" : 30,
            "avg_length" : 28.8,
            "entropy" : 3.94617750050791,
            "distribution" : {
                " " : 0.1527777777777778,
                "e" : 0.14583333333333334,
                "s" : 0.09722222222222222,
                "m" : 0.08333333333333333,
                "t" : 0.0763888888888889,
                "h" : 0.0625,
                "a" : 0.041666666666666664,
                "i" : 0.041666666666666664,
                "r" : 0.041666666666666664,
                "g" : 0.034722222222222224,
                "n" : 0.034722222222222224,
                "o" : 0.034722222222222224,
                "u" : 0.034722222222222224,
                "b" : 0.027777777777777776,
                "w" : 0.027777777777777776,
                "c" : 0.013888888888888888,
                "E" : 0.006944444444444444,
                "l" : 0.006944444444444444,
                "1" : 0.006944444444444444,
                "2" : 0.006944444444444444,
                "3" : 0.006944444444444444,
                "4" : 0.006944444444444444,
                "y" : 0.006944444444444444
            }
        }
    }
}</pre>
</div>
<p><code class="literal">distribution</code> 对象显示每个字符在所有词项中出现的概率。字符按概率降序排列。</p>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_script_12"></a>脚本
</h3>
</div></div></div>
<p>基于脚本计算消息(message)的字符串统计信息：</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /twitter/_search?size=0
{
    "aggs" : {
        "message_stats" : {
             "string_stats" : {
                 "script" : {
                     "lang": "painless",
                     "source": "doc['message.keyword'].value"
                 }
             }
         }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/387.console"></div>
<p>
这将把 <code class="literal">script</code> 参数解释为一个<code class="literal">inline</code>(内联) 脚本，使用 <code class="literal">painless</code>(无痛) 脚本语言，没有脚本参数。

要使用存储的脚本，请使用以下语法:
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /twitter/_search?size=0
{
    "aggs" : {
        "message_stats" : {
            "string_stats" : {
                "script" : {
                    "id": "my_script",
                    "params" : {
                        "field" : "message.keyword"
                    }
                }
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/388.console"></div>
<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_value_script_6"></a>值脚本(value script)
</h4>
</div></div></div>
<p>可以使用值脚本来修改消息(例如，我们可以添加前缀)并计算新的统计数据：</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /twitter/_search?size=0
{
    "aggs" : {
        "message_stats" : {
            "string_stats" : {
                "field" : "message.keyword",
                "script" : {
                    "lang": "painless",
                    "source": "params.prefix + _value",
                    "params" : {
                        "prefix" : "Message: "
                    }
                }
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/389.console"></div>
</div>

</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_missing_value_11"></a>缺失的值
</h3>
</div></div></div>
<p>
参数 <code class="literal">missing</code> 定义应该如何处理有缺失值的文档。

默认情况下，它们会被忽略，但也可以将它们视为有一个(默认)值。
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /twitter/_search?size=0
{
    "aggs" : {
        "message_stats" : {
            "string_stats" : {
                "field" : "message.keyword",
                "missing": "[empty message]" <a id="CO207-1"></a><i class="conum" data-value="1"></i>
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/390.console"></div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO207-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">message</code> 字段中没有值的文档将被视为具有值 <code class="literal">[empty message]</code>的文档。</p>
</td>
</tr>
</table>
</div>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="search-aggregations-metrics-scripted-metric-aggregation.html">« scripted_metric 聚合</a>
</span>
<span class="next">
<a href="search-aggregations-metrics-sum-aggregation.html">sum 聚合 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>